Наука о данных: как стать специалистом по машинному обучению

Технологии машинного обучения вошли практически во все сферы нашей жизни, причем так прочно, что мы их уже не замечаем. Например, принципы автоматического анализа данных используются в мобильных телефонах, когда мы набираем сообщение, а клавиатура прогнозирует, каким будет следующее слово в тексте и предлагает варианты. Сегодня наука о данных (Data Science) — одно из самых востребованных и быстроразвивающихся направлений. Кто такие дата-сайентисты, куда идти на них учиться и нужно ли для этого хорошо знать математику, разбираемся в нашем материале.

Что стоит за ИИ


Попробуйте решить загадку и присмотритесь к портретам выше. На одном из них — человек, которого в реальной жизни не существует. Это изображение сгенерировала нейросеть на основе большого объема данных. Чтобы лицо получилось реалистичным, как правило, нужно около ста тысяч разнообразных изображений. Как думаете, кто из этих людей — настоящий?

Собрать такой датасет непросто. Поэтому ученые стараются сделать алгоритмы более эффективными. В частности, в прошлом году сотрудникам НИУ ВШЭ и Института искусственного интеллекта AIRI удалось оптимизировать обучение нейросети StyleGAN2, создающей реалистичные картинки, сократив число обучаемых параметров на четыре порядка. При этом качество полученных изображений осталось высоким.

Как рассказал порталу наука.рф руководитель VK Lab Егор Спирин, понятие «искусственный интеллект» на самом деле слишком широкое и зачастую его могут неверно использовать. За этой технологией обычно стоят модели машинного обучения, которые можно поделить на генеративные и дискриминативные. Первые создают (генерируют) новые объекты: картинки, музыку, текстовые материалы.

Дискриминативные занимаются классификацией. В частности, такие применяют в беспилотных автомобилях: благодаря лидарам — устройствам, сканирующим пространство с помощью лазерных лучей — система изучает объекты вокруг машины и определяет, где находится человек и другие автомобили.

«Может показаться, что машинное обучение, нейронные сети — это все какая-то магия. Но на самом деле за технологией кроется немного математики и большой объем данных: специальные модели выискивают запоминающиеся паттерны и затем применяют их на новых неизвестных», — говорит эксперт.

Технологии машинного обучения не ограничиваются генерацией картинок, языковыми моделями или чат-ботами. Более сложные системы применяются в медицине (диагностика и прогнозирование заболеваний, изучение генома), финансах (анализ банковской информации и оценка рисков), торговле (анализ поведения покупателей и определение лучших цен), безопасности (распознавание лиц, система мониторинга), транспорте (создание беспилотных автомобилей и оптимизация маршрутов) и многих других сферах.

От медицины до безопасности

Особенно активно технологии машинного обучения проникают в медицину. Обрабатывая большие объемы клинических данных и изображений, алгоритмы способны проводить быструю диагностику, находить закономерности и аномалии.

«Сейчас многие носят такие устройства, как умные часы, устанавливают специальные приложения для смартфонов, позволяющие сделать экспресс-диагностику и просто посоветовать, что пора обратиться к врачу. Это очень важно, потому что часто к медикам приходят, когда вылечить человека уже сложнее. Поэтому в области предиктивной медицины технологии ИИ очень востребованы», — объясняет директор Института системного программирования им. В. П. Иванникова РАН Арутюн Аветисян.

Такую платформу для разных задач, в том числе анализа электрокардиограмм и медицинских изображений, сотрудники института развивают с Сеченовским университетом. Она позволит анализировать большой объем показателей с мобильных устройств для предварительного скрининга.

Однако с появлением инноваций возникают и новые трудности. Основная проблема связана с безопасностью, замечает эксперт. Зачастую трудно понять, как работает конкретный обученный алгоритм, есть ли у него какие-то проблемы. Кроме того, как выяснили специалисты, модель еще и достаточно легко обмануть.

Чтобы решить эти вопросы, в 2021 году на базе ИСП РАН запустили Исследовательский центр доверенного искусственного интеллекта, где создают инструменты для защиты моделей и поиска проблем, готовят методики, рекомендации и программы.

«Сейчас в разных странах принимаются новые законы и методические рекомендации, пока еще достаточно общие и поверхностные, но очевидно, что в будущем регуляторика будет развиваться. Например, буквально на днях страны Евросоюза одобрили главный общеевропейский закон по ИИ — EU AI Act. Он предлагает поделить все технологии с ИИ на категории в зависимости от степени риска. А некоторые технологии (например, социальный скоринг или распознавание лиц в режиме реального времени) — вообще запретить. Постепенно всем становится очевидно, что для широкого внедрения технологий с ИИ необходимо обеспечить безопасность. Это сейчас одно из ключевых направлений, что признано и у нас в стране на государственном уровне и отражено в Национальной стратегии развития ИИ до 2030 года», — подчеркивает директор ИСП РАН.

Никакой рутины

Созданием алгоритмов занимается специалист по машинному обучению. В широком смысле, это человек, который структурирует данные, выстраивает вычислительные процессы.

Чтобы преуспеть в этой профессии, по словам Егора Спирина, нужно уметь писать код, обладать навыками программной инженерии и хорошей математической базой.

Но если в школьном аттестате напротив «математики» не стоит пятерка, вовсе не значит, что путь в профессию закрыт. Скорее важен математический склад ума. Тем, кому интереснее решать задачи по физике, погрузиться в программирование будет нетрудно.

«Встречаются и такие ребята, которые владеют математическим аппаратом и при этом недостаточно хорошо пишут код. Они могут предлагать интересные идеи, но для их реализации нужна помощь коллег. В то же время мир программирования активно развивается, в открытом доступе появляется много готовых фреймворков (инструментов для ускорения разработки). Если человек сам пробует создавать модели, занимается домашними проектами, пользуясь доступными инструментами, то может легко войти в профессию. Знание математики лишь позволит быстрее продвинуться в этом направлении», — объясняет спикер.

Еще один важный аспект: технологии машинного обучения стремительно развиваются. По мнению эксперта, чтобы достичь успеха в этой области, необходимо ориентироваться в трендах, следить за научными исследованиями в сфере технологий, работать с прикладными кейсами и проектами.

«Допустим, вы придумали классную идею и решили, что сейчас будете внедрять инновацию. Пока вы занимались разработкой, несколько других лабораторий уже выпустили такую модель. Приходится начинать сначала. Но технологии никуда не уйдут, спрос на них растет. Например, сейчас мы наблюдаем тренд на так называемые мультимодальные модели, когда одна модель умеет сразу несколько вещей: и текст генерировать, и картинку или аудио создать», — делится Егор Спирин.

При всех вышеперечисленных особенностях эта сфера, как ни удивительно, открывает огромный простор для творчества. Что будет, если модель улучшить определенным способом? А что получится, если взять данные из какой-нибудь другой базы? Будущим специалистам предстоит генерировать новые идеи, тестировать гипотезы и дорабатывать математические модели. Большую часть работы занимают прикладные научные исследования, поэтому ее точно нельзя назвать рутинной, подчеркивает спикер.


Выбор есть

Определиться, где учиться на специалиста по машинному обучению, несложно: сегодня многие российские вузы развивают это направление. В прошлом году «Альянс в сфере искусственного интеллекта» совместно с Минобрнауки представили рейтинг университетов по качеству подготовки ИИ-специалистов, в который вошли 180 организаций из 64 регионов страны.


Интересно, что составить этот список тоже помог искусственный интеллект. В основе вычислений — математическая модель, построенная на фактических данных о качестве образования. Для объективной оценки эксперты отобрали 13 критериев, среди них: уровень зарплат выпускников, востребованность у работодателей, статистика трудоустройства в компаниях Альянса, наличие публикаций на конференциях и в научных журналах, количество призеров студенческих олимпиад и средний балл ЕГЭ.

Лидируют в рейтинге Научно-исследовательский университет «Высшая школа экономики» (НИУ ВШЭ), Университет ИТМО и Московский физико-технический институт (МФТИ).

«Последние годы количество абитуриентов, конечно, растет. У направлений, связанных с программированием, высокий проходной балл и достаточно высокий конкурс. В этом году в нашей Высшей школе программной инженерии он превысил десять человек на место. Но на самом деле эта статистическая цифра не столь важна. Главное — кто к нам приходит. Чтобы заниматься машинным обучением, нужно владеть глубокой фундаментальной базой», — рассказывает директор Высшей школы программной инженерии МФТИ Алексей Малеев.

С первого семестра студенты Физтеха погружаются в проектную работу. Наравне с классическим набором учебной программы — лекциями и семинарами по математике, матанализу, алгебре, теории вероятности и статистике — ребята получают задачу разработать новую технологию (приложение или сервис). За каждой командой закрепляется ментор, который помогает решать практические вопросы. Такой подход позволяет погрузиться в атмосферу, приближенную к работе в компании.

На втором или третьем курсе молодые специалисты проходят стажировку в компаниях-партнерах университета, где могут применить свои разработки на практике.

«Как и в других университетах, мы исходим из того, что для начала студентам нужно какое-то время, чтобы получить фундамент и попробовать себя в разных направлениях. Однако высшее образование — это не только про знания и сдачу экзаменов. Это среда, в которой можно встретить единомышленников, таких же амбициозных ребят и будущих коллег. Нередки случаи, когда студенты запускают совместный проект и спустя время, будучи партнерами, внедряют разработку в промышленное производство», — отметил эксперт.

Готовить специалистов по ИИ и данным совместно с вузами помогает VK. Компания развивает партнерское взаимодействие с 30 ведущими российскими университетами в самых разных форматах — от прикладных программ до встреч и лекций с экспертами. Они помогают начинающим специалистам получить полезные навыки и знания, определиться с направлением своего развития.

Школьные коды

Чтобы поступить в вуз по этому направлению, нужно сдать ЕГЭ по математике, информатике и русскому языку.

«Машинное обучение строится на математике поэтому, в первую очередь, важно хорошо разбираться в этом предмете. И, конечно, нельзя обойтись без информатики. В числе первого языка программирования хорошо подойдет python, а также С++», — считает Алексей Малеев.

Учиться писать код и осваивать навыки программирования можно практически с любого школьного возраста. Даже если пока нет уверенности, что в будущем ребенок свяжет свою жизнь с этой профессией, такие задачи помогут развивать логическое мышление и креативность.

Начать путь можно с компьютерных кружков или детских школ программирования. Например, федеральная программа «Код будущего», запущенная Министерством цифрового развития, предлагает бесплатные курсы для школьников 8 — 11 классов и студентов колледжей. Занятия ведут преподаватели ведущих вузов, в том числе МФТИ, по трем уровням обучения: от базового до продвинутого.

Проверить свои знания помогут олимпиады по математике и информатике, также можно принять участие во Всероссийской олимпиаде школьников по искусственному интеллекту.

«Олимпиадные задания показывают всю красоту предмета. Если ребенку интересно решать нестандартные задачи, то попробовать свои силы точно стоит. Но лучше рассматривать эти соревнования как полезное дополнение к основному обучению. У нас работают много сильных инженеров и разработчиков, которые в свое время не участвовали в олимпиадах и преуспели в своей области», — подчеркивает эксперт, добавив, что главное для школьников — найти любимое дело и понять, чем нравится заниматься.

Такой подход не только позволит легко овладеть знаниями, но и раскрыть способности в полюбившейся научной области, научиться решать самые сложные задачи. Хотя искусственный интеллект не перестает удивлять нас своими способностями, без участия ИИ-специалистов развитие этих технологий невозможно.

А что же с картинками, которые мы показали в начале материала? Какая из них — фотография, а какая была сгенерирована нейросетью? Отвечаем: настоящий человек находится справа.


Анна Шиховец